Este ejercicio se realiza con el fin de conocer la disponibilidad hotelera de acuerdo con la llegada de pasajeros en vuelos nacionales e internacionales. Para esto se realizará un análisis usando un modelo de regresión lineal, ya que como se podrá observar durante el ejercicio, las variables pueden ajustar a dicho modelo.
Conociendo la variable \(x\) (Personas en vuelos nacionales e internacionales), se podrá predecir \(y\) (ocupación hotelera).
La ecuación que se utilizará para el modelo, es generalizada:
\(Y = B_0 + B_1X + \epsilon\)
library(readr) #Facilita la obtención de datos de Excel y de R
library(scales) #Graphical scales map data a la estética, y proporcionan métodos para determinar automáticamente las particiones, las etiquetas de los ejes y las leyendas.
library(plotly) #La biblioteca de gráficos hace gráficos interactivos de calidad de publicación
library(tidyr) #El objetivo de tidyr es ayudarte a crear datos ordenados. Los datos ordenados son datos donde: Cada variable está en una columna.
library(plyr) #Un conjunto de herramientas que resuelven un conjunto de problemas comunes: necesitas descomponer un gran problema en piezas manejables, operar en cada pieza y luego volver a poner todas las piezas juntas.
library(e1071) #Funciones para el análisis de clases latentes, transformación de Fourier de corta duración, agrupación difusa, máquinas de vectores de apoyo, cálculo del camino más corto, agrupación en bolsas, clasificador Bayes ingenuo.
library(lattice) #Un poderoso y elegante sistema de visualización de datos de alto nivel inspirado en los gráficos Trellis, con énfasis en los datos multivariados.
Los datasets tomados para este ejercicio son las llegadas al aeropuerto nacional/internacional y el porcentaje de ocupación hotelera de Medellín, con un histórico de 2012 a 2019.
Se realizó la carga de la información por medio de la función read_delim. Una vez cargado el dataset, se agrupó los datasets por año y mes con el fin de tener un total de personas que llegan al aeropuerto de Medellín.
Finalmente, se dio un formato de fechas ‘%Y%m%d’ con el fin de poder comparar ambos datasets y se realizó una eliminación de valores nulos.
Antes de construir el modelo de regresión lineal, es una buena practica conocer, explorar y analizar los datasets con el fin de conocer las variables.
A continuación se observa la gráfica de la série de llegada de vuelos totales, donde se puede observar en la gráfica, existe un aumento en los vuelos nacionales, donde se ve un salto importante a finales del año 2012.
A continuación se observa la gráfica de la série de la ocupación hotelera, donde se ve un un comportamiento bimodal dentro de los años de análisis, también se puede observar que existe un crecimiento hasta el año 2016 y un leve decrecimiento entre 2016 y el 2018, del \(65.5%\) al \(60.3%\).
Con el siguiente gráfico se intenta conocer la relación que existe entre la asignación hotelera y la llegada de pasajeros.
Visualmente se puede observar que la tendencia de cremiento de la llagada de pasajeros se ve relacionada con el incremento en la ocupación hotelera.
Como se observa en la grafica anterior, los datos antes del 2009 se ve un cambio muy abrupto en la ocupación hotelera desde agosto 2008 hasta Febrero 2009, por lo cual se decide eliminar los datos inferiores a febrero de 2009 ### Grafico de dispersiónLos gráficos de dispersión pueden ayudar a visualizar las relaciones lineales entre la respuesta y las variables de predicción. Con ese fin se dibuja un gráfico de dispersión para cada una de las variables junto con una línea que mejor ajuste la regresión como se puede ver a continuación.
La grafica de dispersión sugiere una relación lineal positiva entre la llegada de pasajeros nacionales y la asignación hotelera.
Existen varias formas para poder suavizar la linea con el fin que esta sea lo mas recta posible y asi ajustarse a una regresión lineal. Por lo que a continuación se puede observar una gráfica de suavización con la función logaritmo.
Como se observa en la grafica, el comportamiento de los datos no tiene una gran diferencia al aplicar una transformación lineal con la función logaritmo natural.
Con el fin de encontrar los datos atípicos o aquellos datos que se encuentran por fuera del rango intercuartil (IQR) de 1,5*. Se graficará los boxplot, ya que se puede identificar los outliers de una forma mas amigable.
Segun las graficas anteriores, no se detectan outliers que puedan impactar el analisis de la regresión lineal.
Con el fin verificar si las variables se comportan de forma Normal, se puede graficar la densidad de los datos.
Como se observa en las graficas, la llegada de pasajeros tiene una curva de frecuencia bimodal en el cual se encuentran dos máximos, lo que nos indica que no hay un único valor que se produce con la frecuencia más alta, en cambio hay dos valores de datos que tienen una alta frecuencia, esto nos hace pensar en las dos temporadas altas de vacaciones que se tienen al año.
Mientras que la ocupación hotelera muestra una distribución normal, por lo que este set de datos es capaz de aproximar satisfactoriamente al valor de una variable aleatoria en una situación ideal.
Con el fin de conocer las fuerza de relación entre las dos variables continuas, se realiza el cáclulo de coeficientes de correlación entras las variables de número de pasajeros y la ocupacón hotelera.
## [1] 0.8055135
El grado de dependencia que se encuentra entre los pasajeros nacionales e internacionales y la ocapción hotelera es de 0.8055135 que nos indica que su correlación es positiva, ya que a medida que aumentan los pasajeros tambien lo hace la asignación hotelera. Sin embargo, es importante recordar que la correlación no implica causalidad, y solo ayuda a entender mejor la relación entre las variables
Una correlación baja esta considerada entre \(-0.2 < x < 0.2\) en el cual se plantearia que la variable respuesta es inexplicada por el predicto y por lo cual se debería buscar mejores variables explicativas, sin embargo, esto no sucede en este modelo.
Ya que se pudo visualizar una relación lineal con las graficas de scatter y con la correlación, se puede realizar un modelo, la función utilizada es lm()
##
## Call:
## lm(formula = df$valor_n ~ df$PasajerosTotales_n, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.05585 -0.47596 -0.08637 0.47046 1.60336
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.496e-16 5.387e-02 0.00 1
## df$PasajerosTotales_n 8.055e-01 5.409e-02 14.89 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.595 on 120 degrees of freedom
## Multiple R-squared: 0.6489, Adjusted R-squared: 0.6459
## F-statistic: 221.7 on 1 and 120 DF, p-value: < 2.2e-16
Este modelo solo se explica en un \(64.59%\) por lo que hay una relación entre el modelo y la variable de ocupación hotelera.
Donde el intercepto es de \(-2.496e^{-16}\) y el coeficiente de \(X\) (pasajeros) es de \(8.055e^{-01}\). y asi la asignación hotelera se encuentra en función de la llegada de pasajeros nacionales e internacionales a Medellin.
Hasta ahora el modelo se puede definir de la siguiente manera:
\(asig_{hotel} = -2.496e^{-16} + 8.055e^{-01} X\)
Con el fin de saber si el modelo es estadísticamente significativo se realiza una visualización del resumen de la regresión, esto se puede calcular con la función summary()
beta.estimate
## [1] 0.8055135
Segun el modelo nuestro R-squared: 0.6459 y un p_value de 1.6687505^{-28} nos indica que el modelo explicao el 64.59% de variación de la ocupación hotelera. Se puede observarq que intercepto y la pendiente son estadisticamente significativas debido a que sus p_values son menores a 0.05 por lo que existe una dependencia entre los vuelos internacionales y la ocupación hotelera.
Con cada unidad de cambio la llegada de pasajeros la tasa de la ocupación hotelera cambiará en 0.8055135.
Los residuos es la diferencia entre los valores de la ocupación hotelera y los valores que se predicen a partir de la regresion, y con el fin de conocer si se esta cumpliendo con la premisas de linealidad, homocedasticidad y normalidad de los residuos, se grafica en con plot la Normal Q-Q, donde se identifica que los residuales se comprotan de manera normal.
Con la grafica de Residuales vs ajustados, nos muestra que hay una varianza uniforme dentro de la llegada de pasajeros nacionales e internacionales, adicional se puede ver que los errores se encuentran centrados en 0.
Donde se puede observar un p value de 1.6687505^{-28} en la llegada de los pasajeros, que nos indica que esta variables es relevante para el modelo ya que el valor p es menor al nivel de significancia estadística predeterminado de 0.05.
Estos coeficientes son los \(\beta\) de nuestra regresión lineal, donde \(asig_{hotel} = -2.496e^{-16} + 0.8055135 X\)
## [1] 0.8055135
La pendiente de nuestro predictor es igual a 0.8055135 y debido que esta variable se encuentra con un p_value de \(<2e-16\) se indica que es significativa para el modelo.
Donde se puede observar un t value de 14.8908097 al estar fuera del rango de -2 y 2, nos demuestra que la variable es significativa para el modelo. Es la relación entre la desviación del valor estimado de la llegada de pasajeros de su valor hipotético y su error estándar. La estadística T se utiliza en una prueba T para determinar si debe apoyar o rechazar la hipótesis nula.
La hipótesis nula \(H0\) se formula, indicanto que los coeficientes beta asociados a las variables son iguales a 0 y la hipótesis alternativa \(H1\) que los coeficientes no son iguales a 0, que es lo mismo que decir que que existe una relación etre las variables independientes en cuestión y la variable dependiente.
De acuerdo al t_value = 14.8908097, se rechaza la hipotesis nula.